#DeepSeek V2
這一次,輪到美國人抄中國作業了!DeepSeek 單槍匹馬“屠榜”,矽谷還有護城河嗎?
“如果說OpenAI的o1是一座圍牆高聳的金庫,那麼DeepSeek剛剛做的,就是直接把金庫的大門炸開,然後對著全世界喊:‘兄弟們,進來隨便拿!’”就在幾個小時前,Hugging Face 上悄悄出現了一個代號為 DeepSeek-Math-V2 的倉庫。 沒有發佈會,沒有漫長的預熱,甚至連個像樣的宣傳片都沒有。 但懂行的開發者看到那個 README 文件時,手都抖了。國產之光 DeepSeek,又來“整頓職場”了。這次他們帶來的,是首個開放原始碼的、達到IMO(國際奧數)金牌水平的推理模型!一、 這一波,到底有多炸?先給大家看一張圖,這是 DeepSeek-Math-V2 在 Hugging Face 上的“成績單”:圖註:這根高高聳立的藍綠色柱子,就是DeepSeekMath-V2。在MATH benchmark上,它不僅碾壓了所有開源模型,甚至把不少閉源的“付費大哥”按在地上摩擦。這不僅僅是分數的勝利,這是“智商”的碾壓。 Hugging Face 的文件裡寫得清清楚楚: 這個模型是基於 DeepSeek-V3-Base 底座,通過大規模的強化學習(RL)訓練出來的。這就好比,以前的AI是“背題庫”考上的大學; 現在的 DeepSeek-Math-V2,是自己在題海裡“悟道”,練成了絕世武功。二、 核心黑科技:它不再是“鸚鵡”,它學會了“慢思考”點開 Hugging Face 的檔案列表,你會發現這個模型最大的特點:它變“囉嗦”了,但也變強了。以前我們問AI:“9.11和9.9誰大?” 普通AI可能直接瞎蒙:“9.11大。” 但 DeepSeek-Math-V2 會在後台開啟“上帝視角”:自我質疑:它會先想,“使用者是不是在考我小數點的陷阱?”多步驗證:它會拆解問題,一步步推導,甚至自己寫程式碼驗證結果。最終輸出:確認無誤後,才告訴你正確答案。這種**CoT(思維鏈)**能力,以前是 OpenAI o1 系列的獨門絕技。 現在?DeepSeek 把它開源了。這意味著,任何一個大學生、研究員,甚至是你家隔壁寫程式碼的小哥,都能在自己的電腦上(視訊記憶體夠的話),運行一個擁有“博士級”數學大腦的AI。三、 為什麼說它是“Google殺手”?在 DeepSeek-Math-V2 發佈之前,Google的 Gemini 團隊一直引以為傲的就是他們的數學推理能力。 但 DeepSeek 用一種名為 GRPO(Group Relative Policy Optimization) 的強化學習演算法,給Google上了一課。簡單來說,DeepSeek 沒有像Google那樣堆砌無窮無盡的算力資源。 他們更聰明。 他們讓模型在沒有人類老師判卷的情況下,自己給自己出題,自己給自己打分。 這種“左右互搏”的訓練方式,讓模型在數學推導、程式碼程式設計這種“非黑即白”的領域,進化速度快得嚇人。Hugging Face 上的資料顯示:在競賽級數學題上,DeepSeek-Math-V2 的表現已經足以拿到 IMO(國際奧數)的金牌。四、 開源,是給世界最好的禮物阿文我在翻閱 Hugging Face 的評論區時,看到一位外國開發者留下了這樣一句話:"DeepSeek is saving the open-source community single-handedly."(DeepSeek 正在單槍匹馬拯救開源社區。)為什麼我們這麼激動? 因為 OpenAI 越來越封閉,Google越來越商業化。 只有 DeepSeek,像一個俠客。 它證明了:不需要兆參數,不需要千億美金,只要演算法足夠精妙,開源一樣可以戰勝閉源!五、 下載連結就在那,誰敢來戰?DeepSeek-Math-V2 的連結現在就掛在 Hugging Face 上。 它就像一把插在石頭裡的“石中劍”。 誰能拔出它,誰就能擁有挑戰巨頭的力量。對於我們普通人來說,這不僅僅是一個新模型。 這是國產AI向世界證明:我們不只是會做套殼APP,我們在最硬核的底層演算法上,一樣能站在世界之巔。 (阿文學AI)
DeepSeek再破GoogleOpenAI壟斷:開源IMO數學金牌大模型
AI界掌管開放原始碼的神——DeepSeek回來了!剛剛,DeepSeek開源了全新的數學模型DeepSeekMath-V2,專注於可自驗證的數學推理。DeepSeekMath-V2不僅在IMO 2025和CMO 2024中取得金牌級分數,而且還在Putnam 2024中,得分118/120,超過了人類最高分90。與此同時,DeepSeekMath-V2在所有CNML等級問題類別(代數、幾何、數論、組合學、不等式)上均優於GPT-5-Thinking-High和Gemini 2.5-Pro。不僅性能無敵,網友表示這還是第一個開放原始碼的IMO金牌模型。這下,Google和OpenAI要坐不住了!特別是OpenAI,本來就打算放出IMO金牌模型來應對GoogleGemini 3 Pro的衝擊,現在被DeepSeek搶先一步。(鯨魚回來了!)值得一提是,這篇論文的一作邵智宏也是之前DeepSeekMath 7B的一作,在那篇論文中,他們提出了著名的GRPO。最強開源IMO金牌模型總的來說,DeepSeekMath-V2是一個旨在實現自驗證數學推理(Self-verification)的大型語言模型(685B)。它的核心在於開發和利用強大的證明驗證能力來指導和最佳化證明生成,從而克服傳統上依賴最終答案作為獎勵的強化學習(RL)方法的侷限性。傳統用於數學推理的強化學習(RL)方法存在根本性限制:最終答案獎勵的不可靠性:將LLM獎勵基於最終答案的正確性,並不能保證推理過程的正確性或邏輯的嚴謹性,模型可能通過錯誤的邏輯得出正確答案 。對定理證明任務的侷限性:許多數學任務(如定理證明)不要求數值答案,而是需要嚴格的步驟推導和邏輯嚴謹性,使得基於最終答案的獎勵機制不適用。缺乏內部驗證能力:經過傳統方法訓練的LLMs缺乏驗證自身證明有效性的能力,經常表現出高假陽性率(即認為錯誤的證明是有效的)。DeepSeekMath-V2採用迭代的強化學習循環,交替最佳化證明驗證器和證明生成器,以實現可自驗證的數學推理。證明驗證訓練驗證器研究首先訓練一個精準且忠實的LLM-based驗證器,使其能夠根據人類專家的標準識別證明中的問題並評分。具體來說,驗證器針對給定的數學問題與證明,輸出一個證明分析,該分析首先總結識別出的問題(如果有),然後基於三個等級分配一個分數:1:完全正確、嚴謹且邏輯清晰的證明。0.5:總體邏輯合理,但有微小錯誤或細節遺漏的證明。0:包含致命邏輯錯誤或關鍵漏洞的根本性錯誤的證明。驗證器的訓練分為資料建構(冷啟動)和模型強化學習目標兩個關鍵階段。在資料建構階段,研究首先從AoPS競賽中收集了1.75萬個要求證明的奧賽等級數學問題。隨後,利用現有模型(DeepSeek-V3.2-Exp-Thinking)生成大量的候選證明,並通過多輪迭代來提升證明的嚴謹性,最終請數學專家人工對這些證明進行評分,分數分為1、0.5和0三個等級,從而建立了初始的RL驗證資料集。進入強化學習目標階段,研究使用上述資料集對基礎模型(DeepSeek-V3.2-Exp-SFT)進行訓練,使其能夠輸出證明分析總結和最終分數。獎勵函數一方面通過格式獎勵強制模型輸出格式包含問題總結和分數,另一方面通過分數獎勵激勵模型預測的分數與專家標註的分數高度一致,從而使驗證器具備模仿人類專家評估嚴謹性的能力。引入元驗證 (Meta-Verification)為解決初步訓練的驗證器可能因幻覺(hallucinating)不存在的問題而獲得正確低分,從而損害其對錯誤識別的忠實性(faithfulness)的問題,研究團隊引入了元驗證(Meta-Verification)機制。元驗證作為一個二級評估過程,旨在審查驗證器生成的證明分析(Proof Analysis),評估其中識別出的問題是否真實存在,以及這些問題是否在邏輯上合理地支援了其預測的證明分數。為了訓練元驗證器,研究首先讓數學專家根據專門的元驗證標準對驗證器輸出的分析質量進行評分,建立了元驗證資料集。隨後,研究訓練了一個專門的元驗證器,該元驗證器生成對驗證分析本身的問題總結,並分配一個質量分數,以衡量原驗證器分析的精準性和合理性。元驗證器的強化學習目標結構與驗證器訓練類似,同樣包含格式獎勵和分數獎勵。接下來是增強驗證器訓練,研究利用訓練好的元驗證器,將元驗證的質量分數整合到驗證器的獎勵函數中,以增強驗證器的忠實性。最終,使用原驗證資料集和元驗證資料集共同訓練增強後的驗證器,使該模型能夠同時執行證明驗證和元驗證兩項任務。在原驗證資料集的一個驗證子集上,經驗證器評估的證明分析的平均質量分數從 0.85 提升到了0.96,同時保持了證明分數預測的精準性不變,有力證明了元驗證機制能有效提高驗證器識別問題的忠實度。證明生成接下來,研究用訓練好的驗證器作為獎勵模型來訓練證明生成器,並進一步通過“自驗證”機制,讓生成器學會嚴格地自我審查和修正,從而提高證明質量。具體來說,研究訓練生成器以最大化驗證器賦給其生成的證明的分數。在訓練中,生成器被要求在生成證明後,緊跟著進行自我分析。獎勵函數激勵精準的自我評估和正確性。最終獎勵是對證明質量和自我評估質量的加權組合。由此,自我評估獎勵不僅獎勵自評分的精準性,還獎勵自我分析的忠實性。這種獎勵結構激勵生成器:忠實地承認錯誤(而非盲目自信)。獲得高獎勵的最佳策略是在最終輸出前,積極識別並解決自身證明中存在的問題,從而實現自我迭代完善。證明驗證與生成之間的協同作用接下來,研究利用驗證器和生成器的協同作用,通過規模化的計算和元驗證機制,建立了一個完全自動化的資料標註流程,從而持續提升驗證器的能力,並最終取代耗時的人工標註。然而,隨著問題難度增加,人工標註耗時且效率低下。由此研究提出了一套自動化標註的方法:首先,通過生成n個獨立的驗證分析,提高在有缺陷證明中捕獲真實問題的機率。接下來,利用元驗證器生成m個評估,對報告問題的分析進行有效性確認,確保識別出的問題是真實的(元驗證比從零識別問題更高效)。具體的標註流程如下:分數判定:檢查所有分析中分配的最低分數。只有當至少有k個分析被元驗證確認為有效時,該最低分才被賦給該證明;否則標記為1分(無合法缺陷)。取代人工: 最終,這種完全自動化的流程在後續訓練迭代中徹底取代了人工標註,並且質量檢查證實其標註結果與專家判斷高度一致。由此,上述流程在最終的訓練迭代中徹底取代了耗時的人力標註,實現了驗證和生成的協同循環,保證了模型能力的持續突破。實驗結果研究採用GRPO進行強化學習,迭代地最佳化證明驗證和生成能力。在每次迭代中,研究首先最佳化證明驗證。然後,證明生成器會從驗證器的checkpoint初始化,並針對證明生成進行最佳化。從第二次迭代開始,證明驗證器會使用一個檢查點進行初始化,該檢查點通過拒絕微調(rejection fine-tuning)鞏固了前一次迭代中的驗證和生成能力。研究首先評估了模型未經迭代完善的單次生成正確證明的能力。實驗結果表明,在所有CNML等級問題類別中——包括代數、幾何、數論、組合學和不等式——DeepSeekMath-V2 持續優於 GPT-5-Thinking-High和Gemini 2.5-Pro。為了探究擴展上下文和自驗證如何提高證明質量,研究又評估了帶有自驗證的順序精煉方法。研究表明,自選的最佳證明比執行緒平均得分獲得了顯著更高的驗證分數,這證明生成器具備精準評估證明質量的能力。此外,隨著最大順序嘗試次數的增加,Pass@1大幅提升,表明自驗證有效地指導了迭代改進。這些結果表明,生成器能夠可靠地區分高品質和有缺陷的證明,並利用這種自我意識系統地改進其數學推理。最後,為瞭解決最具備挑戰性的問題,研究採用了高計算量搜尋策略,該策略通過平行生成探索多樣化的證明路徑,並結合規模化的(64 次)驗證來精確識別細微錯誤。模型迭代地從包含問題分析的候選證明池中精煉出最優證明,直到證明通過所有驗證。最終,這種方法使其在Putnam競賽中以118/120的分數超越人類最高分90分,展現了在驗證器指導下,AI解決複雜問題的強大能力。One more thing如開頭所說,這篇論文的一作邵智宏也是DeepSeek之前數學模型DeepSeekMath 7B的一作。值得一提的是,也就是在DeepSeekMath 7B的論文中,他和團隊提出了經典的GRPO(Group Relative Policy Optimization )。同樣的,他也是DeepSeek-R1的核心貢獻者。邵智宏目前是DeepSeek從事大模型推理研究的研究員,他本科畢業於北京航空航天大學,博士畢業於清華,師從黃民烈教授。 (量子位)